<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   从数据中看规律 – 快乐统计数据分析 | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script type="text/x-mathjax-config">
   MathJax.Hub.Config({tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']], processEscapes: true}});
  </script>
  <script src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML%2CSafe.js&amp;ver=15f5e1fcddf0b88517244c085cc07855" type="text/javascript">
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://blog.cos.name/taoshi/",
                  host: "http://blog.cos.name",
                  prePath: "http://blog.cos.name",
                  scheme: "http",
                  pathBase: "http://blog.cos.name/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466463339: Accept with keywords: (title(0.666666666667):数据,规律,统计数据, topn(0.3):大家,时代,笔画,结论,个数,信息,数据挖掘,数据分析,模型,金额,学生,数学,计算,文章,数据,问卷,统计分析,规律,汉字,问题,科学,太阳系,红包,网站,方法,比划,航海家,发红包,数据量,数据库).-->
 </head>
 <body class="home blog light-theme-pale-blue suffusion-custom preset-1000px device-desktop" onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    从数据中看规律 – 快乐统计数据分析
   </h1>
  </div>
  <div class="container" id="xmain">
   <nav class="tab fix" id="nav-top">
    <div class="col-control left">
     <ul class="sf-menu">
      <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-1587 dd-tab" id="menu-item-1587">
       <a href="http://blog.cos.name/taoshi">
        首页
       </a>
      </li>
      <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-1590 dd-tab" id="menu-item-1590">
       <a href="http://blog.cos.name/taoshi/about/">
        关于
       </a>
      </li>
      <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-1588 dd-tab" id="menu-item-1588">
       <a href="http://statisticsforfun.com">
        English
       </a>
      </li>
     </ul>
    </div>
    <!-- /.col-control -->
   </nav>
   <!-- /#nav-top -->
   <div class="fix" id="wrapper">
    <div class="custom-header fix" id="header-container">
     <header class="fix" id="header">
      <h1 class="blogtitle left">
       <a href="http://blog.cos.name/taoshi">
        从数据中看规律
       </a>
      </h1>
      <div class="description right">
       快乐统计数据分析
      </div>
     </header>
     <!-- /header -->
     <nav class="tab fix" id="nav">
      <div class="col-control left">
       <!-- right-header-widgets -->
       <div class="warea" id="right-header-widgets">
        <form action="http://blog.cos.name/taoshi/" class="searchform " method="get">
        </form>
       </div>
       <!-- /right-header-widgets -->
       <ul class="sf-menu">
        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-1587 dd-tab">
         <a href="http://blog.cos.name/taoshi">
          首页
         </a>
        </li>
        <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-1590 dd-tab">
         <a href="http://blog.cos.name/taoshi/about/">
          关于
         </a>
        </li>
        <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-1588 dd-tab">
         <a href="http://statisticsforfun.com">
          English
         </a>
        </li>
       </ul>
      </div>
      <!-- /col-control -->
     </nav>
     <!-- /nav -->
    </div>
    <!-- //#header-container -->
    <div class="fix" id="container">
     <div id="main-col">
      <div class="hfeed" id="content">
       <article class="full-content post-2638 post type-post status-publish format-standard hentry category-84 category-66 tag-david-freedman tag-richard-d-de-veaux tag-177 tag-178 category-84-id category-66-id post-seq-1 post-parity-odd meta-position-corners fix" id="post-2638">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2014/05/25/%ef%bc%bb%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%bd%e4%bb%8e%e5%ad%a6%e4%b9%a0%e6%95%b0%e5%ad%a6%e5%85%ac%e5%bc%8f%e5%88%b0%e5%ae%9e%e8%b7%b5%e7%bb%9f%e8%ae%a1%e5%88%86%e6%9e%90/" rel="bookmark" title="[朝花夕拾] 从学习数学公式到实践统计分析">
            [朝花夕拾] 从学习数学公式到实践统计分析
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2014/05/25/%ef%bc%bb%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%bd%e4%bb%8e%e5%ad%a6%e4%b9%a0%e6%95%b0%e5%ad%a6%e5%85%ac%e5%bc%8f%e5%88%b0%e5%ae%9e%e8%b7%b5%e7%bb%9f%e8%ae%a1%e5%88%86%e6%9e%90/#comments">
             2 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           5月
          </span>
          <span class="day">
           25
          </span>
          <span class="year">
           2014
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2014-05-25T10:10:11+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           想想从小学到大学，在各种课程中我们都是在学习自然界的各种规律。它们之所以称为规律，就是因为它们有可重复性。从数学，物理，化学等自然学科，到历史，经济，社会等人文学科，人们都希望找到“规律”，从而用其解释，预测，和改变周围的世界，就像著名的
          </p>
          <p style="text-align: center">
           $$E = MC^2$$
          </p>
          <p>
           到大学毕业时，我们用二十多年时间积累了各种规律和它们的推导方法。而如何将学到的知识应用到实际中，从小学中做的应用题开始，好像越往上学，我们的课程中关注的也少了。
          </p>
          <p>
           回头看自己大学从概率统计专业毕业时，也觉得自己对书本中学到的各种概率模型，参数估计，回归分析掌握的还不错。直到在伯克利博士学习的第二年，才发现我以前是多天真烂缦，对统计应用是多么不明觉厉了。
          </p>
          <p>
           最难忘的经历是上
           <a href="http://www.stat.berkeley.edu/~census/" target="_blank">
            David Freedman
           </a>
           的应用统计的第一堂课。第一次上课前的几天，他给选课的学生发了封邮件，告诉大家在第一次上课之前要读三篇文章。大家都是好学生嘛，虽然文章加起来一百多页，大家也都在课前认真地读了（最少认为好好读了）。
          </p>
          <p>
           <a href="http://cos.name/wp-content/uploads/2014/05/photoNormal.jpeg">
            <img src="http://cos.name/wp-content/uploads/2014/05/photoNormal.jpeg"/>
           </a>
          </p>
          <p>
           记得当时课程是在埃文斯大楼的十楼小会议厅里进行，这个小厅的窗外景色还真是让人心旷神怡。在 David 介绍了一下课程结构和一些相关安排后，我们就进入了正题：文章讨论。他平静地坐在椅子上问，“大家有什么的问题？ ” 然后，然后就没有然后了。。。
          </p>
          <p>
           沉默，沉默，然后更长得沉默。我们没想到，讨论是需要我们发起，而不只是参与讨论 。过了一会他又问， “对文章有什么问题？ ” 我们就坐在那里超过10分钟，不断地把论文翻来翻试图找到一个意义的问题来问。如果我们不问任何问题，好像我们就永远坐在那里。感觉这是我记忆中最长得十多分钟。这时谁也没有心情来欣赏窗外的美景了。
          </p>
          <p>
           <a href="http://cos.name/wp-content/uploads/2014/05/6815420787_350f31f3f8_z.jpg">
            <img src="http://cos.name/wp-content/uploads/2014/05/6815420787_350f31f3f8_z-500x332.jpg"/>
           </a>
          </p>
          <p>
           课程就以这样的问答模式进行了整个学期。学生先阅读指定论文，然后在课上提问有关文章的各种问题。David耐心地回答每一个问题。问题的范围从“为什么作者选择了这个模型？ ”到“为什么作者不用那个模式？” ，从“模型是否适合要解决得问题？ ”到“数据靠谱吗，支持模型吗？ “ ，从“有没有证据支持这样的结论？ ”到“证据是否和结论有任何关系？ ” 最离谱的是花了半节课来给我们国际学生解释美国小学的PTO（Parent Teacher Organization）的组织形式和日常活动，以便我们了解一篇关于小学教育研究文章的背景。
          </p>
          <p>
           一学期下来阅读的文章的范围包括：吸烟对肺癌影响的研究，心脏过桥手术的有效性，苏联KGB的威胁恐吓形式，用数据指控美国选举不公的官司，使用动物在癌症研究中的作用，对美国人口普查结果进行统计修正的有效性等等。当文章中提及统计方法时，他又会跳出文章，系统地介绍方法的来龙去脉。
          </p>
          <p>
           更有趣的是，我们讨论的文章中大约三分之一是David自己写的。我们必须（至少尝试）批判性地评论这些文章，而且他也很喜欢这么做。有时他会短暂地捍卫一下文章里得方法和结论，然后加入更多自己的批判。
          </p>
          <p>
           想回顾一下我当时到底学了什么？最令人惊讶的是，我已经不记得我们讨论过什么模型或方法了（太错综复杂了） 。当然必须承认这我记性很差有直接关系。但我还是记得一件事：检查数据可靠性，模型的假设，以及模型于要解决问题的关系，而且一次一次地检查！
          </p>
          <p>
           在软件包和计算能力空前爆炸的今天，我们几乎可以在很短时间内完成分析中的所有计算。但是我们从纷杂的数据中通过分析得出合理解释和预测得能力并不一定是改善了。除非我们使用合适的工具来回答合适得问题，我们才能找到规律。批判性地思考分析中的每一步是得到有用结论的唯一靠谱途径。这是我从David那学到的第一课。
          </p>
          <p>
           统计和数据分析之所以有趣，就是在于它接地气的特点。它虽然没有数学物理那么简洁明快，高大上，但它有自己的精彩。
          </p>
          <p>
           <a href="http://sites.williams.edu/rdeveaux/" target="_blank">
            Richard D. De Veaux
           </a>
           写过一篇很有趣的文章
           <a href="http://civilstat.com/wp-content/uploads/2011/08/Mathmusic.pdf" target="_blank">
            Math Is Music; Statistics Is Literature (Or, Why Are There No Six-Year-Old Novelists?)
           </a>
           （数学是音乐；统计是文学（或者说，为什么天下没有六岁的天才作家））。
          </p>
          <p>
           <a href="http://cos.name/wp-content/uploads/2014/05/mathstat.jpg">
            <img src="http://cos.name/wp-content/uploads/2014/05/mathstat-500x382.jpg"/>
           </a>
          </p>
          <p>
           文中提到统计的一些特殊性，也引用P. F. Velleman 在2003年Beyond the Formula conference 的主题报告“
           <a href="http://math.illinoisstate.edu/events/BerkLecturePDF309.pdf" target="_blank">
            Thinking With Data: Seven Unnatural Acts and Ten 400-Year-Old Aphorisms
           </a>
           ”中指出的统计教学中一些困难。
          </p>
          <blockquote>
           <p>
            It is not merely that we hope to teach judgment to sophomores; we are actually asking our students to change the way they reason about the real world. P. F. Velleman in his 2003 keynote address to the Beyond the Formula conference called the skills they must acquire the seven unnatural acts of statistical thinking: （统计不只是要教给高年级本科生如何做判断，我们其实是在要求学生改变他们探索世界的思路，这需要建立七种非常反人类的统计思维。）
           </p>
          </blockquote>
          <ol>
           <li>
            Think critically. Challenge the data’s credentials; look for biases and lurking variables. （批判性地思考。挑战数据的可靠性；寻找可能的偏差和隐藏信息）
           </li>
           <li>
            Be skeptical. Question authority and the current theory. (Well, okay, sophomores do find this natural.)（持怀疑态度。质疑权威和现有理论）
           </li>
           <li>
            Think about variation, rather than about center. （考虑多种可能性，而不只是中心）
           </li>
           <li>
            Focus on what we don’t know. For example, a confidence interval exhibits how much we don’t know about the parameter.（关注我们不知道的。例如，置信区间可以展示我们有多么不了解要估计的参数）
           </li>
           <li>
            Perfect the process. Our best conclusion is often a refined question, but that means a student can’t memorize the ‘answer.’ （尽量完善分析的每一步。最好的结论往往是一个更细致而有趣的问题，因此学生没法靠背‘答案’来学习）
           </li>
           <li>
            Think about conditional probabilities and rare events. Humans just don’t do this well. Ask any gambler. But, without this, the student can’t understand a p-value.（习惯于考虑条件概率和小概率事件。人们其实不是很擅长如此思考。这个可以问问赌博者，若没有这个习惯，学生很难理解p值）
           </li>
           <li>
            Embrace vague concepts. （学会接纳不精确的概念和定义）
           </li>
          </ol>
          <p>
           这些困难也从另一个角度告诉我们学习统计中要注意的问题。我觉得这些对培养学生的创造性和研究能力非常有帮助。而且这些都是跳出我们从小到大学练习的 “A 提出 B” 这种逻辑和知识框架的，当然也和鸡兔同笼问题的各种奥数(吹哨砍头等)解法什么关系都没有。
          </p>
          <p>
           这些思考方式都是从各种数据分析的成功和失败的经历中逐渐培养出来的。如果你有自己感兴趣的问题，大胆地去收集些数据来玩吧，经常和别人交流你的分析过程和结果，批判性地思考自己可能遗漏的地方，一定会有所收获。Get your hands dirty!
          </p>
          <p>
           大家且玩且长进！
          </p>
          <p>
           另外，谢谢吴喜之老师翻译了David Freedman所著的
           <a href="http://www.amazon.cn/统计模型-理论和实践-弗里曼/dp/B003XKNKZG" target="_blank">
            《统计模型：理论和实践》
           </a>
           。绝对的好书，有空时翻翻一定会收获多多。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 10:10
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/david-freedman/" rel="tag">
           David Freedman
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/richard-d-de-veaux/" rel="tag">
           Richard D. De Veaux
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%ba%94%e7%94%a8%e7%bb%9f%e8%ae%a1/" rel="tag">
           应用统计
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e5%ad%a6%e4%b9%a0/" rel="tag">
           统计学习
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2611 post type-post status-publish format-standard hentry category-152 category-61 category-23 category-84 category-66 category-124 tag-172 tag-114 tag-174 tag-183 tag-173 category-152-id category-61-id category-23-id category-84-id category-66-id category-124-id post-seq-2 post-parity-even meta-position-corners fix" id="post-2611">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2014/05/12/%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%9a%e8%bf%8e%e6%8e%a5%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%8c%91%e6%88%98/" rel="bookmark" title="[朝花夕拾] 迎接信息时代的统计挑战">
            [朝花夕拾] 迎接信息时代的统计挑战
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%99%e8%82%b2/" rel="category tag">
             教育
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e8%af%bb%e4%b9%a6/" rel="category tag">
             读书
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2014/05/12/%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%9a%e8%bf%8e%e6%8e%a5%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%8c%91%e6%88%98/#comments">
             1 Response »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           5月
          </span>
          <span class="day">
           12
          </span>
          <span class="year">
           2014
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2014-05-12T21:33:30+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           世事变迁，最近居然忽然有时间坐下来读些东西，重新审视一下这几年统计领域的发展了。粗略回想了一下，惭愧地发现我好像连
           <a href="http://www.stat.berkeley.edu/~binyu" target="_blank">
            博士导师
           </a>
           的文章也没有系统地读过几篇，只是和自己研究有关的才详细夜读过。于是把她的一些老文章翻出来认真读读，了解一下她对统计研究和学科发展的观点。
          </p>
          <p>
           木然回首，那文已在灯火阑珊处。2007年时她写过一篇综述性文章：
           <a href="http://www.stat.berkeley.edu/~binyu/ps/embracing.pdf" target="_blank">
            Embracing Statistical Challenges in the Information Technology Age
           </a>
           , Bin Yu (2007)
           <em>
            Technometrics
           </em>
           , 49(3), 237-248。摘要如下：
          </p>
          <blockquote>
           <p>
            This article examines the role of statistics in the age of information technology (IT). It begins by examining the current state of IT and of the cyber infrastructure initiative aimed at integrating the technologies into science, engineering, and education to convert massive amounts of data into useful information. Selected applications from science and text processing are introduced to provide concrete examples of massive data sets and the statistical challenges that they pose. The thriving field of machine learning is reviewed as an example of current achievements driven by computations and IT. Ongoing challenges that we face in the IT revolution are also highlighted. The paper concludes that for the healthy future of our field, computer technologies have to be integrated into statistics, and statistical thinking in turn must be integrated into computer technologies.
           </p>
          </blockquote>
          <p>
           文中指出统计当今面临的最大挑战是“统计思维与计算技术的相互结合”。其中提到的一个主要例子还就是我博士论文的课题之一：设计更好更快的算法来区分NASA的卫星在南北极拍摄到图片中的空中云层和地面冰雪。
          </p>
          <p>
           <img src="http://i.imgur.com/cyYcPQT.jpg"/>
          </p>
          <p>
           这工作前前后后持续了超过六年的时间。现在回头想想，从中学习到的和体会到的还是挺有好玩的，同时也发现当时还是很二的。文中提到的那些点点滴滴可谓是历历在目，处处伤心泪啊！
          </p>
          <p>
           遥想当年，数据好难得。在合作者的帮助下也等了三个月才拿到两幅云图。唯一知道的就是专家相信卫星拍到的图中背景是冰天雪地的北极苦寒之地，其中有些部分有云层覆盖。记得和彬两个人第一次盯着图看时，彬问：“哪里是云？”我答：“我（gui）哪（cai）知道。” 就这样的开始了那么多年研究。
          </p>
          <p>
           <img src="http://i.imgur.com/aIO3H9A.jpg"/>
          </p>
          <p>
           哎！说你呢：“一不小心就歪楼了。” “是，是，这里面的血泪和欢心故事改天另起个楼。。。“
          </p>
          <p>
           先跳过中间过程，来看一下文中的总结。The cloud detection experience reveals several considerations that arise in interdisciplinary research involving large amounts of data:
          </p>
          <div title="Page 3">
           <div title="Page 3">
            <ol>
             <li>
              Access to good scientific or subject problems and expertise
             </li>
             <li>
              Collection and management of large data sets (including effective transmission and storage and possibly data reduction or feature selection)
             </li>
             <li>
              EDA (visualization and descriptive statistics and possibly also data reduction or feature selection)
             </li>
             <li>
              Processing mode: offline or online (streaming data)
             </li>
             <li>
              Formal modeling with computation and accuracy considerations (estimation and uncertainty assessment)
             </li>
             <li>
              Data fusion from various sources
             </li>
             <li>
              Validation using information from outside statistics(quantitative test data or qualitative validation based on subject matter).
             </li>
            </ol>
           </div>
           <p>
            这总结真是贴心啊。把它们和最近风行的大数据的4V特点（Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值））比一下，好像大V们不太关心专家意见和最后的独立验证，但更关心价值。要不说大数据是公司做的，大科学是学术做的呢 😉
           </p>
           <p>
            开个玩笑啦，其实也不能这么字面理解，价值的体现最终还是在从数据中学到的规律能否预测未知，也就是独立验证。
           </p>
           <p>
            <a href="http://www.stat.berkeley.edu/~binyu/ps/embracing.pdf" target="_blank">
             文章
            </a>
            从跨学科统计研究开始，用她的各种研究经历论述计算与机器学习和它们带来的新机遇，还有当时看大数据（massive data，那时big data 这词还没现在如此时尚）对未来统计发展将带来的改变和展望。文章结尾部分对掌握统计技能之外的其他能力的重要性也有提及：
           </p>
           <div title="Page 10">
            <blockquote>
             <p>
              In addition to statistical skills, social and interpersonal skills are needed to successfully collaborate with scientists and persuade them of the key role of statistics in scientific investigations. The importance of these nontechnical skills in interdisciplinary research suggests the need for a culture change in our community and for these nontraditional skills to be valued and recognized in, for example, tenure reviews, promotions, and awards. Last but not least, we need to educate our graduate and undergraduate students with the relevant technical and interpersonal skills.
             </p>
            </blockquote>
            <div title="Page 11">
             <p>
              最后当然是以眺望远方的姿势给大家希望喽：
             </p>
             <blockquote>
              <p>
               This is a time of data deluge; we can help build the ark and ride on it,
               <strong>
                if we so choose.
               </strong>
              </p>
             </blockquote>
             <p>
              不管你读，或者不读，
              <a href="http://www.stat.berkeley.edu/~binyu/ps/embracing.pdf" target="_blank">
               文章都在那里
              </a>
              ；不管你信，或者不信，时间都会揭晓答案。读后马上感觉有希望哦。
             </p>
            </div>
           </div>
          </div>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 21:33
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3/" rel="tag">
           信息时代
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae/" rel="tag">
           大数据
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0/" rel="tag">
           机器学习
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" rel="tag">
           统计
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e8%ae%a1%e7%ae%97/" rel="tag">
           统计计算
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2597 post type-post status-publish format-standard hentry category-63 category-61 category-84 category-66 tag-171 tag-170 category-63-id category-61-id category-84-id category-66-id post-seq-3 post-parity-odd meta-position-corners fix" id="post-2597">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2014/04/13/%e5%a4%b1%e8%81%94%e6%90%9c%e6%95%91%e4%b8%ad%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="bookmark" title="失联搜救中的统计数据分析">
            失联搜救中的统计数据分析
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e5%aa%92%e4%bd%93%e6%8a%a5%e9%81%93/" rel="category tag">
             媒体报道
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2014/04/13/%e5%a4%b1%e8%81%94%e6%90%9c%e6%95%91%e4%b8%ad%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/#respond">
             No Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           4月
          </span>
          <span class="day">
           13
          </span>
          <span class="year">
           2014
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2014-04-13T07:50:35+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <blockquote>
           <p>
            大数据时代如何活用数据可视化、大数据与众包、群体智慧、贝叶斯方法等为失联搜救出谋献策？请看下文。
           </p>
          </blockquote>
          <p>
           作者：统计之都创作小组（code99）众筹做业（
           <a href="http://yishuo.org/" target="_blank">
            邓一硕
           </a>
           ，
           <a href="http://blog.sina.com.cn/cattyguan" target="_blank">
            关菁菁
           </a>
           ，
           <a href="http://chenangliu.info/" target="_blank">
            刘辰昂
           </a>
           ，
           <a href="http://yixuan.cos.name/cn/" target="_blank">
            邱怡轩
           </a>
           ，
           <a href="http://blog.cos.name/taoshi/" target="_blank">
            施涛
           </a>
           ，
           <a href="http://weibo.com/u/1572842322" target="_blank">
            熊熹
           </a>
           ，周祺）
          </p>
          <p>
           感谢统计之都资深顾问谢益辉和香港浸会大学数学讲座教授汤涛在写作工程中提出的宝贵建议。
          </p>
          <p>
           <strong>
            引子
           </strong>
          </p>
          <p>
           “MH370”作为航班代码，是近日震惊世界的马来西亚航空公司客机失去联络事件（后简称“马航事件”）留给公众最深刻的数字印象。时至今日，有关马航事件的调查和搜救工作仍在继续。遗憾的是直到截稿时间，MH370航班的残骸仍未找到。
          </p>
          <p>
           在历史上的多次飞机船只等交通工具出现失联情况的突发事件中，数据的收集、分析以及信息的及时发布都在搜寻中起到过关键的作用。比如在2009年，法国航空公司曾有一架民航客机失去联络和踪迹。当时，有不少基于数据分析的文献为失事飞机的搜寻提供了援助。前事不忘，后事之师。本文旨在基于统计学领域的相关知识结合大众可以获知的信息来对马航事件进行了解和分析。本文秉持科普视角，试图阐述在应对马航事件过程中数据收集和数据分析所起到的作用，继而为寻找失联飞机提供一些思路。我们将以寻找失事飞机和船只的事件为线索，来梳理其中涉及到的数据分析思路，以试图减少大家的猜疑和困惑。
          </p>
          <p>
           <strong>
            <span class="more-link fix">
             <a class="more-link" href="http://blog.cos.name/taoshi/2014/04/13/%e5%a4%b1%e8%81%94%e6%90%9c%e6%95%91%e4%b8%ad%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/#more-2597">
              Continue reading »
             </a>
            </span>
           </strong>
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 07:50
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae%ef%bc%8c%e4%bc%97%e5%8c%85/" rel="tag">
           大数据，众包
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e9%a9%ac%e8%88%aa%ef%bc%8c%e8%b4%9d%e5%8f%b6%e6%96%af%ef%bc%8c%e7%be%a4%e4%bd%93%e6%99%ba%e6%85%a7/" rel="tag">
           马航，贝叶斯，群体智慧
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2541 post type-post status-publish format-standard hentry category-63 category-61 category-23 category-84 category-3 tag-cos tag-114 tag-167 tag-183 tag-166 tag-168 category-63-id category-61-id category-23-id category-84-id category-3-id post-seq-4 post-parity-even meta-position-corners fix" id="post-2541">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2014/02/13/%e6%96%b0%e5%b9%b4%e5%88%b0%ef%bc%8c%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%88%e4%b9%8b%e4%b8%80%ef%bc%89%e5%a4%a7%e5%ae%b6%e5%a6%82%e4%bd%95%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%9f/" rel="bookmark" title="新年到，发红包（之一）大家如何发红包？">
            新年到，发红包（之一）大家如何发红包？
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e5%aa%92%e4%bd%93%e6%8a%a5%e9%81%93/" rel="category tag">
             媒体报道
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e9%97%b2%e6%89%af/" rel="category tag">
             闲扯
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2014/02/13/%e6%96%b0%e5%b9%b4%e5%88%b0%ef%bc%8c%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%88%e4%b9%8b%e4%b8%80%ef%bc%89%e5%a4%a7%e5%ae%b6%e5%a6%82%e4%bd%95%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%9f/#comments">
             4 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           2月
          </span>
          <span class="day">
           13
          </span>
          <span class="year">
           2014
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2014-02-13T03:10:14+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           微信红包在马年来临之际着实是火了一把。在抢红包的兴奋中，大家欢欢喜喜的过了个年。红包红包漫天飞，谁抢到归谁。。。
          </p>
          <p style="text-align: left">
           <img src="http://img.ithome.com/newsuploadfiles/2014/1/20140128_222649_24.jpg"/>
          </p>
          <p style="text-align: left">
           要说最火的，还是这个“拼手气群红包”。发红包者自定红包总额和红包个数，由微信随机决定每个来领红包的群友所领到红包的金额。放下拼手气的一面以后再谈，这个红包发放平台顷刻间就产生了一些“大数据”。有人问了，这数据能算大叔句？腾讯科技文章《
           <a href="http://tech.qq.com/a/20140131/001281.htm" target="_blank">
            指尖上的除夕：在线娱乐方式的时代变迁
           </a>
           》中报道：
          </p>
          <blockquote>
           <p>
            根据
            <a href="https://www.tenpay.com/" target="_blank">
             财付通
            </a>
            官方统计，截止1月30日除夕夜，平均每个红包10.7元，抢了最多红包的：869个。除夕夜参与红包活动的总人数达到482万，最高峰出现在零点时分，瞬间峰值达到每分钟2.5万个红包被拆开。
           </p>
          </blockquote>
          <p>
           数据不小哦！更哇呀呀丫的是：869个红包，点屏幕的手都要麻了吧。
          </p>
          <p style="text-align: left">
           鉴于经常游走在数据和统计边缘，混迹于
           <a href="http://cos.name" target="_blank">
            COS
           </a>
           八卦群中，不由得想想这些数据有神马神用途吗？没准可以写篇像前几年科学杂志上发表的 《
           <a href="http://blog.cos.name/taoshi/2011/10/07/science_twitter_work/" rel="bookmark" target="_blank" title="《科学》：Twitter反映人们工作压力巨大 (真的吗？)">
            Twitter反映人们工作压力巨大
           </a>
           》的高端文章呢 🙂
          </p>
          <p style="text-align: left">
           那研究什么呢？红包这东西，收到的人开心（除了本人这类没法绑定银行卡，无法提现的，哭！），发红包的人也挺开心。要不就研究一下红包的发放喜好？没准这结果和传统风俗沾个边，可以申请个中华文化遗产神马的。说干就干！
          </p>
          <p style="text-align: left">
           一般定下心来做事时，才发现开头总是很尴尬的。丰满的理想是冲着CNS去的，骨感的现实是到哪去拿这大数据。不免想到一个关于大数据的出处不详，翻译从略的神评论：
          </p>
          <blockquote>
           <p>
            Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too.
           </p>
          </blockquote>
          <p style="text-align: left">
           谁让咱是干统计这行的呢，虽然没有微信的内部数据，但咱马上有办法。抽样呗！
          </p>
          <ul>
           <li>
            把自己抢到的十几个红包数据录入电脑。这时画外音响起：“同学，这不科学！数据量太小了”
           </li>
           <li>
            好吧，找到个有趣有闲的
            <a href="http://taiyun.cos.name">
             COSer
            </a>
            ，把他抢到的上百个红包数据录入。画外音又响起：“抽样课上学的都还给老师了吗？这不科学，不是随机样本”
           </li>
           <li>
            再好吧，搞个
            <a href="http://www.wenjuan.com/s/YzIFV3/" target="_blank">
             网上调查
            </a>
            ，再找
            <a href="http://www.weibo.com/mathematicalculture" target="_blank">
             @数学文化
            </a>
            等大V推广一下，这下你总满意了吧。画外音：“¥＃＊&amp;％¥＃。。。”
           </li>
           <li>
            有完没完，就这样了！再说我就。。。有种你收集个随机样本我看看？
           </li>
          </ul>
          <p style="text-align: left">
           数据拿来分析一下再说，共收录到144个群红包。这篇就只谈每个群红包的总额和红包个数了。先上图：
          </p>
          <div class="wp-caption aligncenter" style="width: 585px">
           <a href="http://i.imgur.com/Ta4Vl27.jpg">
            <img src="http://i.imgur.com/Ta4Vl27.jpg"/>
           </a>
           <p class="wp-caption-text">
            每个群红包总额的分布
           </p>
          </div>
          <p style="text-align: left">
           大家对6和8以及各种整数的偏好很明显吗。再看每个群红包发给多少人。
          </p>
          <div class="wp-caption aligncenter" style="width: 585px">
           <a href="http://i.imgur.com/SytBr0Y.jpg">
            <img src="http://i.imgur.com/SytBr0Y.jpg"/>
           </a>
           <p class="wp-caption-text">
            每个群红包所发人数
           </p>
          </div>
          <p style="text-align: left">
           好像20个人以下居多哦，没有太多散财童子出现，呵呵！然后该是每个群发红包的平均金额了吧。
          </p>
          <div class="wp-caption aligncenter" style="width: 585px">
           <a href="http://i.imgur.com/a2gXrTE.jpg">
            <img src="http://i.imgur.com/a2gXrTE.jpg"/>
           </a>
           <p class="wp-caption-text">
            平均红包金额
           </p>
          </div>
          <p style="text-align: left">
           除了发现一个888元包十个红包的土豪，别的都在平均50元以下。所有144个群红包的平均红包金额为7.08元，和财富通发布的“平均每个红包10.7元”的大数据结果有些差距。不过看下图：
          </p>
          <div class="wp-caption aligncenter" style="width: 585px">
           <a href="http://i.imgur.com/BgzOQQ4.jpg">
            <img src="http://i.imgur.com/BgzOQQ4.jpg"/>
           </a>
           <p class="wp-caption-text">
            红包平均金额 v.s. 红包发放个数
           </p>
          </div>
          <p style="text-align: left">
           原来红包平均金额和红包发放个数还有点关系呢。这位COSer同学（嗑嗑，说你呢），你都是从哪抢的红包啊？
          </p>
          <ul>
           <li>
            COSer: 抢到的平均红包金额 4.63元
           </li>
           <li>
            其他人：抢到的平均红包金额 14.31元
           </li>
          </ul>
          <p style="text-align: left">
           太拖累大家了，又都被你平均了:) 不过非常感谢你顶风冒雪地去输入数据，我决定把我抢来的红包一次性转发给你，拉高你的平均值。
          </p>
          <p style="text-align: left">
           好吧，这次就先到这，休息一下。下篇再来研究微信这个手气红包到底多拼手气 。。。
          </p>
          <p style="text-align: left">
           －－－－－－－－－－－－－－－－－－－－－－－－－－－－－
          </p>
          <p style="text-align: left">
           p.s. 非常感谢各位在网上贡献数据的朋友：牛肉干，Anfeifei，zy，聪葱，苏建冲 等
          </p>
          <p style="text-align: left">
           p.p.s. 有兴趣CNS的同学都再去为
           <a href="http://www.wenjuan.com/s/YzIFV3/" target="_blank">
            网上调查
           </a>
           贡献几个红包数据吧，我们可以写众包做业的可行性和可靠性分析什么的 🙂
          </p>
          <p style="text-align: left">
           p.p.p.s. 说个题外的，为吗我碰到的都说发出去红包总金额比收到的少很多呢？钱都去哪了？奥数好的给解释一下吧。。。（都被陈光标卷走了？）
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 03:10
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/cos/" rel="tag">
           COS
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae/" rel="tag">
           大数据
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%be%ae%e4%bf%a1/" rel="tag">
           微信
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" rel="tag">
           统计
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bd%91%e4%b8%8a%e8%b0%83%e6%9f%a5/" rel="tag">
           网上调查
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%be%a4%e5%8f%91%e7%ba%a2%e5%8c%85/" rel="tag">
           群发红包
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2483 post type-post status-publish format-standard hentry category-61 category-66 category-3 tag-mac tag-161 tag-160 category-61-id category-66-id category-3-id post-seq-5 post-parity-odd meta-position-corners fix" id="post-2483">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/10/03/%e7%bd%91%e4%b8%8a%e9%97%ae%e5%8d%b7%ef%bc%8c%e7%bc%ba%e5%a4%b1%e6%95%b0%e6%8d%ae%e5%92%8c%e6%95%b0%e6%8d%ae%e9%9a%90%e7%a7%81/" rel="bookmark" title="网上问卷，缺失数据和数据隐私">
            网上问卷，缺失数据和数据隐私
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e9%97%b2%e6%89%af/" rel="category tag">
             闲扯
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/10/03/%e7%bd%91%e4%b8%8a%e9%97%ae%e5%8d%b7%ef%bc%8c%e7%bc%ba%e5%a4%b1%e6%95%b0%e6%8d%ae%e5%92%8c%e6%95%b0%e6%8d%ae%e9%9a%90%e7%a7%81/#comments">
             4 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           10月
          </span>
          <span class="day">
           03
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-10-03T11:03:27+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           这几天在忙着搞个网上签名活动，需要找个容易使用的网站来让大家报名，然后把数据库导出来。忽然想起
           <a href="http://cos.name">
            统计之都
           </a>
           办沙龙时的报名网站不错，刚好可以借点经验值来找个靠谱网站来发起网上活动。不优秀也是一种习惯的
           <a href="http://blog.cos.name/taiyun/" target="_blank">
            那块云
           </a>
           建议了一个叫做
           <a href="http://www.wenjuan.com" target="_blank">
            问卷网
           </a>
           的好用网站，可以用来设计各种网上问卷。虽然最近在做缺失数据研究的统计方法的研究中对用网上问卷来了解民意的准确性持极大的怀疑态度，但用来做网上签名应该还是靠谱的。
          </p>
          <p>
           话说
           <a href="http://www.wenjuan.com" target="_blank">
            问卷网
           </a>
           做的还真不错，忙碌了几分钟就搞出一份像样的签名
           <a href="http://www.wenjuan.com/s/Fbyema" target="_blank">
            问卷
           </a>
           。然后自己试了一下提交数据，发现可以在后台数据库中找到，这也就算是开张了，故事也应该就此结束了。可是，事情总是有个可是才有意思。。。
          </p>
          <p>
           就在一切看似正常地收集了几十个签名后，一个朋友在闲聊时说他也签名了。可是我回头一查，为什么数据库中没有他签名的信息和留言呢？做了几个小实验发现原来又是Mac惹的祸。用Mac自带的safari浏览器在问卷网提交答卷时，有一些问卷信息没有记入数据库。好郁闷！一分钟前还在修改关于如何处理缺失数据的论文，被MCAR, MAR, MNAR绞的一脑子浆糊，实际问题马上就出来了。显然这不是MCAR(Missing Completely At Random)的情况。好吧，先找客服
           <a href="http://www.weibo.com/n/%E9%97%AE%E5%8D%B7%E7%BD%91%E5%BE%AE%E5%8D%9A">
            @问卷网微博
           </a>
           问问情况，然后居然发现我是第一个反映这种问题的。汗！
          </p>
          <p>
           这里要表扬一下问卷网的技术人员。大周末的，人家给查了半天，发现了问题。原来是这样的：
          </p>
          <blockquote>
           <p>
            我们技术查了一下，发现有问题的答卷是在你修改问卷前曾经访问过问卷链接，导致之前的问卷信息保存在电脑中（这个现象和浏览器相关），然后提交的时候虽然出现成功页面，但是不会进入结果。如果你需要这些答卷，我们可以帮你修复。之后，我们会修复这个bug。对于带来的不便，深感歉意。
           </p>
          </blockquote>
          <p>
           问卷网作为一家以提供网上问卷为业的网站，虽然技术有些漏洞，但技术人员的很敬业的。从搞统计的角度，虽然网上问卷的selection bias大的出奇，但这个网站还是值得推广，最少用来收集网上签名还是挺有用的。
          </p>
          <p>
           －－－－－－－－－－－－－ 好，称赞完毕, 以下纯吐槽 －－－－－－－－－－－－－－－
          </p>
          <p>
           这个小插曲又让我想起两个和苹果电脑用户别有关的故事。
          </p>
          <p>
           <a href="http://tech.163.com/12/0809/06/88ER5G53000915BF.html" target="_blank">
            旅游网站Orbitz尝试差异搜索
           </a>
           ：
           <a href="http://blog.cos.name/taoshi/www.orbitz.com" target="_blank">
            Orbitz.com
           </a>
           旅行服务网站发现，在酒店住宿方面，
           <a href="http://tech.163.com/company/apple/">
            苹果
           </a>
           Mac电脑的用户会比其他人多花30%的费用。受这一发现的启发，这家公司开始改变在不同操作系统上的搜索结果顺序。有人指出Orbitz的对Mac用户提供的酒店排序中高价位酒店被排在刚靠前的位置显示。这可是一石激起千层浪，用户纷纷指出被歧视。当天该网站的CEO就赶快上各大电视网节目中解释公司没有歧视对待用户，blah, blah, …… 原来大数据时代也不是什么数据都可以用来变现的，数据隐私问题虽然还没有太提到日程上来（特别是在国内互联网的混战中），但最终要有法规来约束的。
          </p>
          <p>
           <img src="http://media.komonews.com/images/120626_orbitz_mac_pc.jpg"/>
          </p>
          <p>
           另外想起自己在2005年开始转向使用Mac的原因，也是很另类，完全是因为“/”和“\”的原因。当时要处理很多卫星数据，而且每天的数据都存储在自己的目录下，目录下又套着目录。当时写matlab程序要调用无数shell command 来跳转目录，结压缩，拷贝，删除中间文件等等。我一般是在笔记本上调试一下程序，然后到linux工作站上去成夜算。但windows的目录用“\”,而Linux用“/”，于是在笔记本上写的程序又要改了才能在工作站上跑。没有办法，只好把笔记本换成Mac了。从这以后，就再也没拥有过windows机器。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 11:03
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/mac/" rel="tag">
           Mac
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bc%ba%e5%a4%b1%e6%95%b0%e6%8d%ae/" rel="tag">
           缺失数据
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e9%97%ae%e5%8d%b7%e7%bd%91/" rel="tag">
           问卷网
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2440 post type-post status-publish format-standard hentry category-61 category-62 tag-157 tag-159 tag-156 tag-158 category-61-id category-62-id post-seq-6 post-parity-even meta-position-corners fix" id="post-2440">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/08/28/%e8%88%aa%e6%b5%b7%e5%ae%b61%e5%8f%b7%e7%a6%bb%e5%bc%80%e5%a4%aa%e9%98%b3%e7%b3%bb%e4%ba%86%e5%90%97%ef%bc%9f/" rel="bookmark" title="航海家1号离开太阳系了吗？">
            航海家1号离开太阳系了吗？
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%a7%91%e5%ad%a6/" rel="category tag">
             科学
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/08/28/%e8%88%aa%e6%b5%b7%e5%ae%b61%e5%8f%b7%e7%a6%bb%e5%bc%80%e5%a4%aa%e9%98%b3%e7%b3%bb%e4%ba%86%e5%90%97%ef%bc%9f/#comments">
             2 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           8月
          </span>
          <span class="day">
           28
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-08-28T22:57:48+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           <a href="http://zh.wikipedia.org/zh-tw/旅行者1号" target="_blank">
            航海家1号
           </a>
           （
           <a href="http://voyager.jpl.nasa.gov" target="_blank">
            Voyager 1
           </a>
           ）作为一艘无人太空探测船于1977年9月5日从佛罗里达洲的卡纳维尔角发射升空，先后位临木星，土星，正在向星际间的太空进发。
          </p>
          <div class="wp-caption aligncenter" style="width: 610px">
           <img src="http://upload.wikimedia.org/wikipedia/commons/thumb/d/d2/Voyager.jpg/766px-Voyager.jpg"/>
           <p class="wp-caption-text">
            航海家1号
           </p>
          </div>
          <p>
           而且它还携带了一张
           <a href="http://voyager.jpl.nasa.gov/spacecraft/goldenrec.html" target="_blank">
            航海家金唱片
           </a>
           ，其中包含了115张图片和世界上的各种自然声音及音乐。
          </p>
          <p style="text-align: center">
           <a href="http://zh.wikipedia.org/wiki/旅行者金唱片">
            <img src="http://voyager.jpl.nasa.gov/images/features/features2.jpg"/>
           </a>
          </p>
          <p>
           从2003年起，大家就都在等航海家1号飞离太阳系的那一天，有兴趣的人也可以在美国
           <a href="http://voyager.jpl.nasa.gov/index.html" target="_blank">
            空气动力推进实验室
           </a>
           的网页上查到
           <a href="http://voyager.jpl.nasa.gov/where/" target="_blank">
            它的当前的估计位置
           </a>
           。可就在大家耐心（和不耐心）等待的时候，忽然在今年8月14号M. Swisdak, J. F. Drake, and M. Opher 在 The Astrophysical Journal Letters上发表了
           <a href="http://iopscience.iop.org/2041-8205/774/1/L8/pdf/2041-8205_774_1_L8.pdf" target="_blank">
            一篇文章
           </a>
           ，说其实去年（2012年7月27号）它就已经离开太阳系了。问题这就来了，它到底离开了，还是没离开呢？
          </p>
          <div title="Page 1">
           <div title="Page 1">
            <div>
             刚发表的这篇文章， 《A POROUS, LAYERED HELIOPAUSE》，的摘要以这句开始：
            </div>
           </div>
           <blockquote>
            <p>
             The picture of the heliopause (HP)—the boundary between the domains of the Sun and the local interstellar medium (LISM)—as a pristine interface with a large rotation in the magnetic field fails to describe recent Voyager 1 (V1) data.
            </p>
           </blockquote>
           <p>
            怎么理解呢？文章首先指出通常的假设认为
            <a href="http://zh.wikipedia.org/zh-cn/日球層頂" target="_blank">
             日球层顶
            </a>
            （Heliopause，也称为太阳风层顶）的磁场方向有大的转向，但这个模型无法解释最近航海家1号发回的数据。
            <strong>
             实事是航海家1号传回的数据至今还没有观测到这个大的磁场方向变化。
            </strong>
            从我这地球人的角度来看，如果数据是靠谱的，那没有观测到这个磁场方向的变化至少有两种可能，一个是航海家1号还没有走出日球顶层，我们接着等；另一个就是我们认为“磁场方向有大的转向”的想法不太对头。
            <br/>
            <a href="http://voyager.jpl.nasa.gov/images/features/features1.jpg">
             <img src="http://voyager.jpl.nasa.gov/images/features/features1.jpg"/>
            </a>
            <br/>
            文章接下来提出另一个可能的模型。这个模型指出在航海家1号附近的磁场方向变化应该很小，而且于它发回的数据相符。根据这个模型，航海家1号已经昂首阔步的走出了太阳系，并且是去年七月就已经出围了。
           </p>
           <div title="Page 1">
            <blockquote>
             <p>
              Magnetohydrodynamic (MHD) simulations of the global heliosphere reveal that the rotation angle of the magnetic field across the HP at V1 is small. Particle-in-cell simulations, based on cuts through the MHD model at V1’s location, suggest that the sectored region of the heliosheath (HS) produces large-scale magnetic islands that reconnect with the interstellar magnetic field while mixing LISM and HS plasma. Cuts across the simulation reveal multiple, anti-correlated jumps in the number densities of LISM and HS particles, similar to those observed, at the magnetic separatrices. A model is presented, based on both the observations and simulations, of the HP as a porous, multi-layered structure threaded by magnetic fields. This model further suggests that contrary to the conclusions of recent papers, V1 has already crossed the HP.
             </p>
            </blockquote>
           </div>
           <p>
            对此发展，美国航空航天局空气动力推进实验室的航海家项目科学家 Ed Stone 也
            <a href="http://www.jpl.nasa.gov/news/news.php?release=2013-251" target="_blank">
             发表声明
            </a>
            ：
           </p>
           <blockquote>
            <p>
             “Details of a new model have just been published that lead the scientists who created the model to argue that NASA’s Voyager 1 spacecraft data can be consistent with entering interstellar space in 2012. In describing on a fine scale how magnetic field lines from the sun and magnetic field lines from interstellar space can connect to each other, they conclude Voyager 1 has been detecting the interstellar magnetic field since July 27, 2012. Their model would mean that the interstellar magnetic field direction is the same as that which originates from our sun.
            </p>
            <p>
             Other models envision the interstellar magnetic field draped around our solar bubble and predict that the direction of the interstellar magnetic field is different from the solar magnetic field inside. By that interpretation, Voyager 1 would still be inside our solar bubble.
            </p>
            <p>
             The fine-scale magnetic connection model will become part of the discussion among scientists as they try to reconcile what may be happening on a fine scale with what happens on a larger scale.
            </p>
            <p>
             The Voyager 1 spacecraft is exploring a region no spacecraft has ever been to before. We will continue to look for any further developments over the coming months and years as Voyager explores an uncharted frontier.”
            </p>
           </blockquote>
           <p>
            简单的说就是对于现在已有的数据，根据不同的模型我们会得到不同的结论。有的认为它出去了，有的认为没有。航海家1号正在探索一个从没有其他探测器到达过的领域。到底那个模型正确，还是它们都正确？我们还需要等更多的数据和观察后续的发展。
           </p>
           <p>
            关于航海家旅行的数据可以很容易地在
            <a href="http://voyager.jpl.nasa.gov/science/Voyager_Science_Data.html" target="_blank">
             这里
            </a>
            找到，但要是想得到各种模型的结果，那就要找物理专科的来了。
           </p>
           <p>
            <img src="http://abyss.uoregon.edu/~js/images/voy_traj.jpg"/>
           </p>
           <p>
            航海家用了36年时间在看似庞大的太阳系里画了一条线，物理学家需要用它传回地有限数据来判断各种可能物理模型，或提出新的模型，来探索我们的星系的边际。科学探索的魅力正在于以观测到的和已有的知识来探索未知的领域。数据分析的精彩瞬间也在于不同人对于相同的数据也可以得到不同的结论。多有趣啊！
           </p>
           <p>
            这情况和瞎子摸象有点类似，每人用自己手上摸到的感觉（数据）＋TA对世界的了解（模型）来得出结论。做自然科学的好处就是科学家不会只满足于找出各种可能的结论和不太离谱的猜测，而且会设计下一步的试验去收集数据来辨别哪个结论或猜测更靠谱。
           </p>
           <p>
            借用师祖
            <a href="http://www.stat.berkeley.edu/~terry/" target="_blank">
             Terry Speed
            </a>
            关于统计的一句话来结束：
           </p>
           <blockquote>
            <p>
             In my opinion, statistics follows this formula:
            </p>
            <p>
             Experiments + Data —–(model)––&gt; results + uncertainty ==&gt; understand the world!
            </p>
            <p>
             — by Terry 3/19/2012
            </p>
            <p>
            </p>
           </blockquote>
          </div>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 22:57
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%aa%e9%98%b3%e7%b3%bb/" rel="tag">
           太阳系
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e6%97%a5%e7%90%83%e5%b1%82%e9%a1%b6/" rel="tag">
           日球层顶
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e8%88%aa%e6%b5%b7%e5%ae%b61%e5%8f%b7/" rel="tag">
           航海家1号
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e8%88%aa%e6%b5%b7%e5%ae%b6%e9%87%91%e5%94%b1%e7%89%87/" rel="tag">
           航海家金唱片
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2411 post type-post status-publish format-standard hentry category-152 category-84 category-66 category-76 tag-isca-bulletin tag-153 tag-154 category-152-id category-84-id category-66-id category-76-id post-seq-7 post-parity-odd meta-position-corners fix" id="post-2411">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/07/10/a-conversation-with-professor-bin-yu/" rel="bookmark" title="A conversation with Professor Bin Yu">
            A conversation with Professor Bin Yu
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%99%e8%82%b2/" rel="category tag">
             教育
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e8%81%8c%e4%b8%9a%e4%bb%8b%e7%bb%8d/" rel="category tag">
             职业介绍
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/07/10/a-conversation-with-professor-bin-yu/#comments">
             6 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           7月
          </span>
          <span class="day">
           10
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-07-10T09:03:56+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           去年就答应了
           <a href="http://www.icsa.org" target="_blank">
            泛华统计协会
           </a>
           去采访博士论文导师
           <a href="http://www.stat.berkeley.edu/~binyu" target="_blank">
            郁彬
           </a>
           ，今年二月时才借道成行，在Berkeley做了采访。
           <a href="http://www.stat.osu.edu/~taoshi/research/papers/Conversation_with_Bin_YU.pdf" target="_blank">
            采访全文
           </a>
           刚刚在
           <a href="http://www.icsa.org/bulletin/index.html" target="_blank">
            这期的 ICSA Bulletin
           </a>
           上登出。
          </p>
          <p>
           先说一句：采访比较长，而且是英文，请有耐心时再读。（注：曾经给某达人试读过关于中国统计看法的部分，刚好赶上人家情绪不好，被直接无视。）
          </p>
          <p>
           我以自己的偏好摘抄几段：
          </p>
          <div title="Page 1">
           <p>
            [Before College]
           </p>
           <blockquote>
            <p>
             A math book from a cousin gave me my first boost into math when I was in 3
             <sup>
              rd
             </sup>
             and 4
             <sup>
              th
             </sup>
             grade. I enjoyed taking exponentials and logarithms using a table in the book.  I  believe doing the math problems provided a refuge of certainty and safety for me during a very turmoil time in China.
            </p>
            <p>
             Another big boost in my interest in mathematics occurred when I was in the Lab School of Normal University in Harbin.  There I had a wonderful and extremely talented sub math teacher, Jianye  Chen (陈建业) in my second year in junior high. [……] Under his strong influence and, in some sense, fulfilling his unrealized dream of going to the math department at Peking University, I chose to do math at Peking University after receiving a very good score on the national college entrance examination in 1980.
            </p>
           </blockquote>
           <p>
            [PKU]
           </p>
           <blockquote>
            <p>
             The first math analysis discussion class was hard for me since I didn’t know how to do the problems. But you know, I really liked math and we had good professors. We didn’t interact a lot with the professors, because that was not the norm.
            </p>
            <p>
             In the entrance exam to graduate school in Peking University, I came first in the math subject exams. However, the professor I wanted to work with did not take me after the oral exam. So I switched into Probability and Statistics, although I originally wanted to do Functional Analysis. That was actually a very good move, a forced one, but it has benefited me tremendously.
            </p>
           </blockquote>
           <p>
            [Qualify Exam at Berkeley]
           </p>
           <blockquote>
            <p>
             <i>
              Shi:
             </i>
             Is it the same format as we took it? 10 questions?
            </p>
            <p>
             <i>
              Yu:
             </i>
             Yes. If you do three, I think, you pass.
            </p>
           </blockquote>
           <p>
            [Marriage]
           </p>
           <blockquote>
            <p>
             In the summer of 1987, I went back to China and got married to my boyfriend who went to graduate school in China in 1985 in architectural history. He was able to join me a year later in Berkeley and went to Berkeley’s School of Architecture. My American friends were a bit shocked to hear that I married someone that I hadn’t seen for two years. It was a bit risky, but looking back, it was the best decision in my life.
            </p>
           </blockquote>
           <p>
            [Suggestion for Young Researchers]
           </p>
           <blockquote>
            <p>
             So I would say to junior people who just started their career: take more risks, instead of being more careful. If you work in a very desirable field like Statistics, you could not go too wrong. Ultimately, whether you enjoy your life or not is because whether you are happy, not because you make the system happy. And the system actually becomes happy because you are happy.
            </p>
           </blockquote>
           <p>
            [Current Status of Statistics]
           </p>
           <blockquote>
            <p>
             I think we are in a golden area for Statistics as an intellectual field. But this field has to be broadly interpreted. Basically a lot of people trained in other fields are also doing this type of work we do.
            </p>
            <p>
             I think if we rise up to the challenge, we will be the leading data scientists. With our great traditions of critical thinking with us, at the same time, embracing machine learning, database, and computing challenges.
            </p>
            <p>
             You take some risks, and you cannot really “fail” too much. You have a safe net. You have a Ph.D. in Statistics. How wrong could it go, right?
            </p>
           </blockquote>
           <p>
            [Statistics in China]
           </p>
           <blockquote>
            <p>
             <i>
              Shi
             </i>
             : By talking with people in China, I do feel industry, especially the high-tech companies, has a huge need for people who can analyze their growing volume of data. Meanwhile, in more scientific area like Biology and Physics, they do have the same need to find people who can work with them in designing and analyzing their experiments and do better science. Is there anything universities in China can do to help foster this type of collaboration?
            </p>
            <p>
             <i>
              Yu
             </i>
             : I think it is kind of happening already. Peking University is talking about a data science center. You have to have cross discipline centers. Any culture change is going to be a slow process. But when there is a need, especially for economic reasons, things just happen in the end. The statistics majors in China, and here too, have to get on top of computing. At senior level, it is easy to find collaborators because you have ideas and a record. If you are a beginner and you cannot even touch the data, who’s going to hire a statistics undergraduate to give advice to a CS undergraduate? It is a constant struggle that we should keep up with computing training of our students. Eventually I hope we will be just as good as computer science majors. That would be the goal, then we will have both the critical thinking and computing skills. I’m not worried about the mathematical part as much not because it is not important. We have been giving our students that, so it is not the urgent need.  The weaker point is the cross-field critical thinking and computing for statistics students.
            </p>
           </blockquote>
           <p>
            [Statistics and Data Science]
           </p>
           <blockquote>
            <p>
             Yu: [……] Lots of people think of statistics as counting numbers, but they don’t know all the exciting things we do. That’s a misconception. Either we go all the way out as a community to change it, which is an uphill battle, or we just embrace data science. Just start saying that we do data science. It is psychology. This is a personal opinion, not representing the view of IMS. I’m just wondering and I think it is a discussion worth having because of the popular unfavorable misconception of statistics.
            </p>
            <p>
             <i>
              Shi
             </i>
             : Yes. I have colleagues who seldom read the Annuals of Statistics. They think the journal mainly concerns about theoretical results and mainly about asymptotic, but they are not.
            </p>
            <p>
             <i>
              Yu
             </i>
             : It is a dilemma in China. Statistics (统计) is 一级学科. Data science is not one of the 学科 yet. But in certain occasions, we can say that we do data science. We are statisticians and we do data science. At least we should go that far.
            </p>
           </blockquote>
           <p>
            [Statistics and Critical Thinking]
           </p>
           <blockquote>
            <p>
             <i>
              Yu
             </i>
             : That’s a gradual process. As I feel being the chair is confronting different opinions. As you said, you cannot form critical thinking without people counter you, even just playing the devil’s advocate. If it is all “great”, it is not critical thinking. Critical thinking is not the most natural thing in the Chinese culture because we tend to want to agree with each other, which has strength in lots of situations, but not in Science. It is something I think the western culture has an edge. In the Chinese culture, there are things called “思辨”and “承传”, but it is more about listening to others than questioning.
            </p>
            <p>
             I’m not disapproving by critiquing, but some students might take that way. So the challenge to me is how to train those students to become critical thinkers. It is almost like they have to establish confidence first somehow.
            </p>
           </blockquote>
           <p>
            [Data Collection and Quality in China]
           </p>
           <blockquote>
            <p>
             <i>
              Shi
             </i>
             : I found it amazing to see on the Internet that comments about any data or any article written by Bureau of Statistics of China are usually like people don’t trust any of them. It seems don’t matter what the report is about. When it says something is good, they don’t trust it; when it says something is bad, they don’t trust it.
            </p>
            <p>
             <i>
              Yu
             </i>
             : Yeah, that’s a big problem you bring up that is data quality. It is not unrelated to plagiarism in doing research at every level. For statistics, if we cannot trust the data, we are done. Maybe theoretical statistics will develop further first before data analysis or data science. But companies care a lot more about good quality of data. They cannot fake their data as much because it is related with their revenue. That’s why I say industry would play a huge role in pushing the development of statistics or data science, whatever it is called, in China.
            </p>
           </blockquote>
           <p>
            我知道，我知道，光摘要就这么长。。。 要是你已经读到这了，那，
           </p>
           <p>
            恭喜你！你的耐心和对统计学科（数据科学）的兴趣足以支持你读
            <a href="http://www.stat.osu.edu/~taoshi/research/papers/Conversation_with_Bin_YU.pdf" target="_blank">
             完全部访谈
            </a>
            的。
           </p>
           <p>
            我保证你会有不同的收获（最少可以看到彬姐在足球队里的风采）。
           </p>
          </div>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 09:03
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/isca-bulletin/" rel="tag">
           ISCA Bulletin
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e8%ae%bf%e8%b0%88/" rel="tag">
           访谈
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e9%83%81%e5%bd%ac/" rel="tag">
           郁彬
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2375 post type-post status-publish format-standard hentry category-61 category-62 category-84 tag-151 tag-148 tag-150 tag-149 tag-147 category-61-id category-62-id category-84-id post-seq-8 post-parity-even meta-position-corners fix" id="post-2375">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/06/27/%e6%b1%89%e5%ad%97%e7%ac%94%e7%94%bb%e5%88%86%e5%b8%83/" rel="bookmark" title="汉字笔画分布">
            汉字笔画分布
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%a7%91%e5%ad%a6/" rel="category tag">
             科学
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/06/27/%e6%b1%89%e5%ad%97%e7%ac%94%e7%94%bb%e5%88%86%e5%b8%83/#comments">
             11 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           6月
          </span>
          <span class="day">
           27
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-06-27T09:32:37+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           五月份请
           <a href="http://www.weibo.com/rickjin" target="_blank">
            @rickjin
           </a>
           在北大讲了一些基本的
           <a href="http://www.weibo.com/2247080050/zvMJVdJJS" target="_blank">
            自然语言处理中的统计方法
           </a>
           时了解到
           <a href="http://baike.baidu.com/view/2187593.htm?noadapt=1" target="_blank">
            北京大学计算语言学研究所
           </a>
           在计算机中文语言处理方面做的很多工作。在聊起
           <a href="http://www.weibo.com/rickjin" target="_blank">
            @rickjin
           </a>
           写的《正态分布的前世今生》时，无意中谈到计算语言所的张化瑞老师。
          </p>
          <p>
           机缘巧合的发现原来张老师和我办公室在同一个楼里，并且一起在幼儿院参加过亲子运动会，于是和张老师约了次午饭。其间了解到了一些关于中文有趣知识，其中关于汉字的比划分布的研究很是有趣。
          </p>
          <p>
           谈起汉字比划分布，就不得不从
           <a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=2024" target="_blank">
            张学文
           </a>
           <a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=2024" target="_blank">
            老师
           </a>
           的博文：
           <a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=2024&amp;do=blog&amp;id=3605" target="_blank">
            汉字的数学美–笔画与数量的数学公式
           </a>
           开始。文中对辞海中汉字的比划分布的研究。
          </p>
          <blockquote>
           <p>
            为了便于统计，我们用了1987年印的1979年版的辞海。
            <a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=2024&amp;do=blog&amp;id=3605" target="_blank">
             表1.
            </a>
            是从词海中统计出来的不同笔画的汉字的个数。它显示出笔画过少或者过多的汉字都比较少，9-14画的汉字最多。
           </p>
          </blockquote>
          <p>
           <img src="http://i.imgur.com/SNtvNgV.png"/>
          </p>
          <blockquote>
           <p>
            研究发现，笔画x与汉字数量y的关系符合数学上的
            <a href="http://zh.wikipedia.org/wiki/对数正态分布" target="_blank">
             对数正态分布函数
            </a>
            。其公式是公式中16262是汉字（辞海）的总个数，μ是笔画数x的自然对数的平均值，其值为2.4739，σ是笔画的自然对数的标准差，其值为0.3827。
           </p>
          </blockquote>
          <p>
           <a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=2024&amp;do=blog&amp;id=3605">
            <img src="http://i.imgur.com/XXIysCg.jpg"/>
           </a>
          </p>
          <blockquote>
           <p>
            认识汉字的这种规律显然是我们对汉字研究的一个进步。人们对汉字体形之美已经欣赏多年，汉字蕴藏的数学之美也该当让大家知道。
           </p>
          </blockquote>
          <p>
           看了这篇文章又浏览了
           <a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=2024" target="_blank">
            张学文
           </a>
           <a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=2024" target="_blank">
            老师
           </a>
           在他的博客
           <a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=2024" target="_blank">
            熵.复杂程度.统计.气象.水
           </a>
           中的其他文章后，我不禁为做气象的张先生对科学的兴趣和数据的执着而感动。
          </p>
          <p>
           张化瑞老师同时还发给我一篇他写的文章《汉字笔画数分布的一个统一公式》，其中用幂正态分布来拟合了《印刷通用汉字字形表》、《辞海》、Unicode 2.0 和Big5汉字进行了验证。结果发现，整体上都比较相符。拟合分布的一个参数还可能与汉字结构大概在一维和二维之间相关，真是有意思啊。这就不细表了。
          </p>
          <p>
           我现在忽然对汉字的比划很感兴趣了，同时也好奇到哪找个数据库其中纪录每一个汉字的比划呢？在小孩上中文学校时遇到过
           <a href="http://www.yes-chinese.com/tzg/" target="_blank">
            中文天下
           </a>
           这个网站，可以打印如下的田字格，所以这个一个关于汉字比划的数据库一定存在。
           <br/>
           <a href="http://www.yes-chinese.com/tzg/">
            <img src="http://i.imgur.com/ArMC8Oy.png"/>
           </a>
          </p>
          <p>
           高人们给我指条明路吧。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 09:32
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e5%88%86%e5%b8%83/" rel="tag">
           分布
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%8c%97%e4%ba%ac%e5%a4%a7%e5%ad%a6%e8%ae%a1%e7%ae%97%e8%af%ad%e8%a8%80%e5%ad%a6%e7%a0%94%e7%a9%b6%e6%89%80/" rel="tag">
           北京大学计算语言学研究所
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e6%af%94%e5%88%92/" rel="tag">
           比划
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e6%b1%89%e5%ad%97/" rel="tag">
           汉字
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86/" rel="tag">
           自然语言处理
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-1851 post type-post status-publish format-standard hentry category-3 tag-t-shirt tag-183 category-3-id post-seq-9 post-parity-odd meta-position-corners fix" id="post-1851">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/06/06/t-shirt-%e7%bb%9f%e8%ae%a1/" rel="bookmark" title="T-shirt 统计，统计T-shirt">
            T-shirt 统计，统计T-shirt
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e9%97%b2%e6%89%af/" rel="category tag">
             闲扯
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/06/06/t-shirt-%e7%bb%9f%e8%ae%a1/#comments">
             4 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           6月
          </span>
          <span class="day">
           06
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-06-06T11:55:57+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           这全球气候变化还真不是盖的。不管是中国还是美国，春天都变得惊人的短。这也正好让我喜欢穿短袖短裤的屌丝很是开心。两周前刚回到家时，整理了一下衣服，发现我也可以算是个相对富有的屌丝，T-shirt 居然有超过一百件之多了。我好富有啊，不过也发现有领子的衣服只有两件，好屌丝啊！
          </p>
          <p>
           记得当学生时，David Brillinger 上应用统计课的最后一节课上（12月份啊）问大家有没有注意到那学期他身上有什么规律。作为做时间序列的鼻祖，规律居然是一学期下来每堂课穿了不同样的T-shirt。我当时心里那个羡慕啊。。。。。。
          </p>
          <p>
           谁承想，我也会有今天。既然如此，就快乐统计，有偏抽样一下：
          </p>
          <p>
           正宗统计类（每次都积极买来屯着）－－－－－－－－－－－－－－－－－－－－－－
          </p>
          <p>
           <img src="http://i.imgur.com/aULAaFZ.jpg"/>
          </p>
          <p>
           <img src="http://i.imgur.com/VdSlYsZ.jpg"/>
          </p>
          <p>
           <img src="http://i.imgur.com/nzTuvQ8.jpg"/>
          </p>
          <p>
           <span class="more-link fix">
            <a class="more-link" href="http://blog.cos.name/taoshi/2013/06/06/t-shirt-%e7%bb%9f%e8%ae%a1/#more-1851">
             Continue reading »
            </a>
           </span>
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 11:55
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/t-shirt/" rel="tag">
           T-shirt
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" rel="tag">
           统计
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2273 post type-post status-publish format-standard hentry category-61 category-23 category-84 category-66 category-76 tag-114 tag-183 tag-134 category-61-id category-23-id category-84-id category-66-id category-76-id post-seq-10 post-parity-even meta-position-corners fix" id="post-2273">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/05/29/%e5%a4%a7%e6%95%b0%e6%8d%ae%e6%97%b6%e4%bb%a3%e5%92%8c%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e9%9c%80%e6%b1%82%ef%bc%8c%e7%bb%9f%e8%ae%a1%e8%bf%98%e6%b2%be%e8%be%b9%e5%90%97%ef%bc%9f/" rel="bookmark" title="大数据时代和数据分析需求，统计还沾边吗？">
            大数据时代和数据分析需求，统计还沾边吗？
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e8%81%8c%e4%b8%9a%e4%bb%8b%e7%bb%8d/" rel="category tag">
             职业介绍
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/05/29/%e5%a4%a7%e6%95%b0%e6%8d%ae%e6%97%b6%e4%bb%a3%e5%92%8c%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e9%9c%80%e6%b1%82%ef%bc%8c%e7%bb%9f%e8%ae%a1%e8%bf%98%e6%b2%be%e8%be%b9%e5%90%97%ef%bc%9f/#comments">
             2 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           5月
          </span>
          <span class="day">
           29
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-05-29T00:26:25+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           大数据时代的悄然到来和计算能力爆炸式增长，让做统计分析的各类人士不禁要重新打量一下自己的技能包，看看是不是很快要被时代浪潮以
           <a href="http://normaldeviate.wordpress.com/2013/04/13/data-science-the-end-of-statistics/" target="_blank">
            大浪淘沙的方式清洗掉了
           </a>
           。
          </p>
          <p>
           到底大数据是怎么来的呢？可以用来干什么呢？我们就先拿2012美国总统大选来举个例子看看。比如说我们想预测在2012年11月6日，
          </p>
          <ul>
           <li>
            <strong>
             问题1:
            </strong>
            奥巴马和罗姆尼谁当选美国总统？
           </li>
          </ul>
          <p>
           我们可以用什么数据来做这个预测呢？最常用的就是民调数据了，通过有选择性的挑选一些可能选民来问他们的倾向。这好像是个传统统计干的事。
           <a href="http://blog.cos.name/taoshi/2012/07/26/john-and-david/" target="_blank">
            早在1962年John Tukey就已经开始做了
           </a>
           。
          </p>
          <p style="text-align: center">
           <img src="http://i.imgur.com/4C6ec.jpg"/>
          </p>
          <ul>
           <li>
            <strong>
             问题2:
            </strong>
            奥巴马和罗姆尼各自赢得了哪些州？
           </li>
          </ul>
          <p>
           这也不难回答，我们还是可以用民调数据了，只不过要在每个州都进行抽样调查，在仔细的分析汇总一下。数据量也就比预测全国的结果时用的多几十倍而已。而且如果知道了那些州两人相差太大，一方就没有必要再大肆花钱做广告了 ：）
          </p>
          <p>
           <img src="http://i.imgur.com/OxBWOGJ.jpg"/>
          </p>
          <ul>
           <li>
            <strong>
             问题3:
            </strong>
            奥巴马和罗姆尼各自赢得了县？
           </li>
          </ul>
          <p>
           再做更小范围，更详细的抽样调查也许可行，也就是在加上几十到几百倍的数据量和相应的花费吧，同时为了提高准确性我们或许还需要收集和用到更多的其他辅助数据，比如各地的人口构成，年龄构成。。。但这个问题如果回答的好的话就可以更有效的投放广告到地方市场了。
          </p>
          <p style="text-align: center">
           <a href="http://www.princeton.edu/~rvdb/JAVA/election2012/">
            <img src="http://i.imgur.com/vZH2Tkq.jpg"/>
           </a>
          </p>
          <p>
           （这个数据可视化很灿，还有更酷的
           <a href="http://www.princeton.edu/~rvdb/JAVA/election2012/" target="_blank">
            在这里
           </a>
           ，by
           <a href="http://www.princeton.edu/~rvdb/" target="_blank">
            Robert J. Vanderbei
           </a>
           , Professor of
           <a href="http://orfe.princeton.edu/">
            Operations Research and Financial Engineering
           </a>
           at Princeton。看，不是统计学家做的吧。）
          </p>
          <ul>
           <li>
            <strong>
             问题4:
            </strong>
            奥巴马或罗姆尼赢得某个人的选票的机会？
           </li>
          </ul>
          <p>
           对这个问题的回答就比较费些劲了，这就牵扯到选战中的精细估计（micro-targeting）了。如果这个估计的可以做的准，对于摇晃选民就可以电话或上门拜访，狂轰滥炸，试图说服了。
          </p>
          <p>
           那怎么对每个人的投票倾向有个好的估计呢？关于个人很多因素就可以粉墨登场了，比如：党派，年龄，性别，职业，婚姻情况，家庭人数，所开汽车型号，所用手机型号，等等。。。这数据量一下就上去了。再加上这些年随着社交网络的兴起，我们可以在用上个人和其他人的社交关系，朋友活动，发帖转帖等等等。。。一下子数据量级就上去了，也就可以成为大数据了。这些海量数据也让我们有机会回答以前很难想到能够回答的问题。
          </p>
          <p>
           从这几个关心问题的转变过程中，我们可以看到与问题对应的所需数据收集和分析方法的演化。当我们关心的问题越细节，越多样化，所需要的资源和技术就越多。
          </p>
          <ul>
           <li>
            <strong>
             问题5:
            </strong>
            如果把第4个问题中的“奥巴马或罗姆尼赢得某个人的选票的机会？”改成“某个人在上网时点击某个展示广告的机会”会怎么样呢？
           </li>
          </ul>
          <p>
           我们这就看到 Google, Baidu等一拥而上，不计成本的计算了，而且所能应用的变量就可能是他们能拿到关于“某人”的所有的线上脚印和线下信息了。
          </p>
          <p>
           <a href="http://www.techinasia.com/baidu-googles-long-lost-search-engine-love-child/">
            <img src="http://i.imgur.com/t7Kh6hH.png"/>
           </a>
          </p>
          <p>
           问题问了一圈，这些听起来都很是十足的统计分析啊。本应该是统计分析人士应该是施展才华的时代，那为何还会有要被时代淘汰的论调呢？记得Leo Brieman 在
           <a href="http://cos.name/2012/02/what-is-the-stat-dept-25-years-from-now/" target="_blank">
            1994年Berkeley 统计系毕业典礼上的讲话
           </a>
           中提到的：
          </p>
          <blockquote>
           <p>
            要知道何去何从，我们必须清楚自己真正所擅长的是什么。统计的核心是什么？需要我们是一流的数学家吗？几乎不用。那是什么呢？
            <strong>
             成为收集信息，分析信息，并得出结论的专家！
            </strong>
            这才是我们真正所擅长的。所以我认为，这正是我们统计学家应有的定位，我们的身份危机才会到解决。
           </p>
          </blockquote>
          <p>
           在大数据的时代，我们还有资格说我们是“
           <strong>
            收集信息，分析信息，并得出结论的专家”
           </strong>
           吗？如果我们不具备收集和处理大数据所需要的计算能力和技巧，没有数据分析的直觉和经验，如何能得出有说服力和经得起检验的结论呢？
          </p>
          <p>
           现在讨论我们是否是一流的数学家好像已经没有很么意义。我们不妨问问自己，比起一流的计算机学家，我们还有何优势能更好的“
           <strong>
            收集信息，分析信息，并得出结论”
           </strong>
           ？当我们数据收集和处理能力越来越强时，大家关心的问题的范围也越来越广，细节要求越来越高，需要的数据越来越多。这个发展趋势不广在商业，计算机信息领域天天看到，我们在科学研究，医疗制药，政府服务等各个方面的能力和雄心都在爆炸式的增长，由此带来的问题和分析需求也在爆炸。
          </p>
          <p>
           在这形势下，我们可以考虑一下在这些牵扯大数据的问题中，统计又如何能更有效的帮助别人分析问题，得出结论。我们的曾经的神器，极限定理以及其赖以生存的测度理论，是否还有那么神奇和有用呢？与此同时我们欠缺的是什么工具呢？如果我们做的理论问题的假设与实际问题和数据的统计距离太显著，还有没有必要钻这牛角尖？如果我们不和做实际问题的一起工作，一起了解问题的细节，又怎能帮助他们呢？
          </p>
          <p>
           从另一个角度看，我想在拥有与计算机专业的同事相差不算远的计算机技能的基础上，统计专科在数据收集方法（试验设计，抽样方法等），模型选择以及模型对outlier和模型假设的敏感度，在数据支持下对可能结论的批判型思维，以及对结论的不确定型描述等方面还是很大优势的。不过这些方面的技能好像还都不是简单的靠读理论统计课本能直接学习到或证明数学定理能解决的，它们都是在解决实际问题和数据分析的过程中通过不断犯错误来提高的。
          </p>
          <p>
           当然了，“拥有与计算机专业的同事相差不算远的计算机技能的基础上” 是一个很大很大的需要检验的假设，要拥有这样的基础需要从课程选择，课外导向，个人学习规划等方面出发主动的学习。就像 Michael Jordan，
           <em>
            在
            <a href="http://huati.weibo.com/k/21%E4%B8%96%E7%BA%AA%E7%9A%84%E8%AE%A1%E7%AE%97%E5%A4%A7%E4%BC%9A?from=510">
             #21世纪的计算大会#
            </a>
           </em>
           上做”大数据的分治和统计推断”的
           <a href="http://blog.cos.name/taoshi/2012/12/18/大数据，统计精度与计算复杂度/" target="_blank">
            主题演讲中提到的
           </a>
           ：
          </p>
          <blockquote>
           <p>
            If you didn’t understand a lot of the talk, it is a bit technical, maybe you should go take some statistics class if you are a computer scientist. If you are a statistician, I don’t know if any of you are here, you probably should take some computer science classes.
           </p>
           <p>
            The future is for those people who can take these two fields and integrate them into one brain, not having to bring every project to statisticians, trying to have them talking to computer scientists using some translation software. But one brain can bring these ideas jointly together. How do I think about my statistical risk and the errors I’m going to make when data come into a computer and how do I think about stating that so I don’t have to break when I have more than a few hundred thousand data points.
           </p>
          </blockquote>
          <p>
           <embed align="middle" allowfullscreen="true" allowscriptaccess="always" height="400" quality="high" src="http://player.youku.com/player.php/sid/XNDg3ODE1MzU2/v.swf" type="application/x-shockwave-flash" width="480">
           </embed>
          </p>
          <p>
           当统计学培养出来的学生能得心应手的对（大）数据进行分析时，叫不叫数据科学就无所谓了，因为社会的需求会最终决定一个专业的方向和发展。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 00:26
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae/" rel="tag">
           大数据
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" rel="tag">
           统计
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e8%ae%a1%e7%ae%97/" rel="tag">
           计算
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <div class="page-nav fix">
        <span class="previous-entries">
         <a href="http://blog.cos.name/taoshi/page/2/">
          <span class="icon">
          </span>
          Older Entries
         </a>
        </span>
        <span class="next-entries">
        </span>
       </div>
       <!-- page nav -->
      </div>
      <!-- content -->
     </div>
     <!-- main col -->
     <div class="sidebar-shell sidebar-shell-right" id="sidebar-shell-1">
      <div class="dbx-group right boxed warea" id="sidebar">
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_recent_entries" id="recent-posts-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          近期文章
         </h3>
         <ul>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/05/25/%ef%bc%bb%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%bd%e4%bb%8e%e5%ad%a6%e4%b9%a0%e6%95%b0%e5%ad%a6%e5%85%ac%e5%bc%8f%e5%88%b0%e5%ae%9e%e8%b7%b5%e7%bb%9f%e8%ae%a1%e5%88%86%e6%9e%90/">
            [朝花夕拾] 从学习数学公式到实践统计分析
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/05/12/%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%9a%e8%bf%8e%e6%8e%a5%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%8c%91%e6%88%98/">
            [朝花夕拾] 迎接信息时代的统计挑战
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/04/13/%e5%a4%b1%e8%81%94%e6%90%9c%e6%95%91%e4%b8%ad%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/">
            失联搜救中的统计数据分析
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/02/13/%e6%96%b0%e5%b9%b4%e5%88%b0%ef%bc%8c%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%88%e4%b9%8b%e4%b8%80%ef%bc%89%e5%a4%a7%e5%ae%b6%e5%a6%82%e4%bd%95%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%9f/">
            新年到，发红包（之一）大家如何发红包？
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/10/03/%e7%bd%91%e4%b8%8a%e9%97%ae%e5%8d%b7%ef%bc%8c%e7%bc%ba%e5%a4%b1%e6%95%b0%e6%8d%ae%e5%92%8c%e6%95%b0%e6%8d%ae%e9%9a%90%e7%a7%81/">
            网上问卷，缺失数据和数据隐私
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/08/28/%e8%88%aa%e6%b5%b7%e5%ae%b61%e5%8f%b7%e7%a6%bb%e5%bc%80%e5%a4%aa%e9%98%b3%e7%b3%bb%e4%ba%86%e5%90%97%ef%bc%9f/">
            航海家1号离开太阳系了吗？
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_archive" id="archives-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          文章归档
         </h3>
         <ul>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/05/">
            2014年五月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/04/">
            2014年四月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/02/">
            2014年二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/10/">
            2013年十月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/08/">
            2013年八月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/07/">
            2013年七月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/06/">
            2013年六月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/05/">
            2013年五月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/04/">
            2013年四月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/02/">
            2013年二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/01/">
            2013年一月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/12/">
            2012年十二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/11/">
            2012年十一月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/10/">
            2012年十月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/08/">
            2012年八月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/07/">
            2012年七月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/06/">
            2012年六月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/05/">
            2012年五月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/04/">
            2012年四月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/02/">
            2012年二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/12/">
            2011年十二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/11/">
            2011年十一月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/10/">
            2011年十月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/09/">
            2011年九月
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_categories" id="categories-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          分类目录
         </h3>
         <ul>
          <li class="cat-item cat-item-91">
           <a href="http://blog.cos.name/taoshi/category/%e4%bd%93%e8%82%b2/">
            体育
           </a>
           (2)
          </li>
          <li class="cat-item cat-item-63">
           <a href="http://blog.cos.name/taoshi/category/%e5%aa%92%e4%bd%93%e6%8a%a5%e9%81%93/">
            媒体报道
           </a>
           (12)
          </li>
          <li class="cat-item cat-item-152">
           <a href="http://blog.cos.name/taoshi/category/%e6%95%99%e8%82%b2/">
            教育
           </a>
           (6)
          </li>
          <li class="cat-item cat-item-61">
           <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/">
            数据分析
           </a>
           (22)
          </li>
          <li class="cat-item cat-item-23">
           <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/">
            数据挖掘
           </a>
           (7)
          </li>
          <li class="cat-item cat-item-62">
           <a href="http://blog.cos.name/taoshi/category/%e7%a7%91%e5%ad%a6/">
            科学
           </a>
           (7)
          </li>
          <li class="cat-item cat-item-84">
           <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/">
            统计
           </a>
           (22)
          </li>
          <li class="cat-item cat-item-83">
           <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%92%a8%e8%af%a2/">
            统计咨询
           </a>
           (3)
          </li>
          <li class="cat-item cat-item-66">
           <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/">
            统计应用
           </a>
           (15)
          </li>
          <li class="cat-item cat-item-76">
           <a href="http://blog.cos.name/taoshi/category/%e8%81%8c%e4%b8%9a%e4%bb%8b%e7%bb%8d/">
            职业介绍
           </a>
           (5)
          </li>
          <li class="cat-item cat-item-124">
           <a href="http://blog.cos.name/taoshi/category/%e8%af%bb%e4%b9%a6/">
            读书
           </a>
           (2)
          </li>
          <li class="cat-item cat-item-77">
           <a href="http://blog.cos.name/taoshi/category/%e8%bd%ac%e8%bd%bd/">
            转载
           </a>
           (1)
          </li>
          <li class="cat-item cat-item-3">
           <a href="http://blog.cos.name/taoshi/category/%e9%97%b2%e6%89%af/">
            闲扯
           </a>
           (14)
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_links" id="linkcat-125">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          链接链接
         </h3>
         <ul class="xoxo blogroll">
          <li>
           <a href="http://www.statsblogs.com">
            Statsblogs
           </a>
          </li>
          <li>
           <a href="http://www.matrix67.com/blog/">
            Matrix67
           </a>
          </li>
          <li>
           <a href="http://cos.name">
            统计之都
           </a>
          </li>
          <li>
           <a href="http://www.itongji.cn">
            中国统计网
           </a>
          </li>
          <li>
           <a href="http://www.loyhome.com">
            落园
           </a>
          </li>
          <li>
           <a href="http://yihui.name/cn/">
            歇一会
           </a>
          </li>
          <li>
           <a href="http://yixuan.cos.name/cn/">
            怡然軒
           </a>
          </li>
          <li>
           <a href="http://www.puddingnnn.com">
            他山布丁
           </a>
          </li>
          <li>
           <a href="http://www.bjt.name">
            刘思喆@贝吉塔行星
           </a>
          </li>
          <li>
           <a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=2024">
            熵.复杂程度.统计.气象.水
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_tag_cloud" id="tag_cloud-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          Tags
         </h3>
         <div class="tagcloud">
          <a class="tag-link-60 tag-link-position-1" href="http://blog.cos.name/taoshi/tag/5%cf%83/" style="font-size: 8pt;" title="1个话题">
           5σ
          </a>
          <a class="tag-link-8 tag-link-position-2" href="http://blog.cos.name/taoshi/tag/air-pollution/" style="font-size: 8pt;" title="1个话题">
           air pollution
          </a>
          <a class="tag-link-24 tag-link-position-3" href="http://blog.cos.name/taoshi/tag/berkeley/" style="font-size: 22pt;" title="5个话题">
           Berkeley
          </a>
          <a class="tag-link-4 tag-link-position-4" href="http://blog.cos.name/taoshi/tag/black-box/" style="font-size: 8pt;" title="1个话题">
           black box
          </a>
          <a class="tag-link-138 tag-link-position-5" href="http://blog.cos.name/taoshi/tag/critical-thinking/" style="font-size: 13.25pt;" title="2个话题">
           critical thinking
          </a>
          <a class="tag-link-139 tag-link-position-6" href="http://blog.cos.name/taoshi/tag/david-a-freedman/" style="font-size: 16.75pt;" title="3个话题">
           David A. Freedman
          </a>
          <a class="tag-link-44 tag-link-position-7" href="http://blog.cos.name/taoshi/tag/discovery/" style="font-size: 8pt;" title="1个话题">
           discovery
          </a>
          <a class="tag-link-9 tag-link-position-8" href="http://blog.cos.name/taoshi/tag/fine-particulate-matter/" style="font-size: 8pt;" title="1个话题">
           fine particulate matter
          </a>
          <a class="tag-link-53 tag-link-position-9" href="http://blog.cos.name/taoshi/tag/leo-breiman/" style="font-size: 8pt;" title="1个话题">
           Leo Breiman
          </a>
          <a class="tag-link-10 tag-link-position-10" href="http://blog.cos.name/taoshi/tag/meta-analysis/" style="font-size: 8pt;" title="1个话题">
           meta-analysis
          </a>
          <a class="tag-link-18 tag-link-position-11" href="http://blog.cos.name/taoshi/tag/national-public-radio/" style="font-size: 8pt;" title="1个话题">
           national public radio
          </a>
          <a class="tag-link-19 tag-link-position-12" href="http://blog.cos.name/taoshi/tag/npr/" style="font-size: 8pt;" title="1个话题">
           NPR
          </a>
          <a class="tag-link-54 tag-link-position-13" href="http://blog.cos.name/taoshi/tag/peter-bickel/" style="font-size: 8pt;" title="1个话题">
           Peter Bickel
          </a>
          <a class="tag-link-11 tag-link-position-14" href="http://blog.cos.name/taoshi/tag/pm2-5/" style="font-size: 8pt;" title="1个话题">
           pm2.5
          </a>
          <a class="tag-link-6 tag-link-position-15" href="http://blog.cos.name/taoshi/tag/prediction/" style="font-size: 8pt;" title="1个话题">
           prediction
          </a>
          <a class="tag-link-30 tag-link-position-16" href="http://blog.cos.name/taoshi/tag/probability/" style="font-size: 8pt;" title="1个话题">
           probability
          </a>
          <a class="tag-link-12 tag-link-position-17" href="http://blog.cos.name/taoshi/tag/ralph-kahn/" style="font-size: 8pt;" title="1个话题">
           Ralph Kahn
          </a>
          <a class="tag-link-13 tag-link-position-18" href="http://blog.cos.name/taoshi/tag/satellite/" style="font-size: 8pt;" title="1个话题">
           satellite
          </a>
          <a class="tag-link-45 tag-link-position-19" href="http://blog.cos.name/taoshi/tag/social-study/" style="font-size: 8pt;" title="1个话题">
           social study
          </a>
          <a class="tag-link-179 tag-link-position-20" href="http://blog.cos.name/taoshi/tag/statistics/" style="font-size: 16.75pt;" title="3个话题">
           Statistics
          </a>
          <a class="tag-link-20 tag-link-position-21" href="http://blog.cos.name/taoshi/tag/super-bowl-ads/" style="font-size: 8pt;" title="1个话题">
           Super Bowl Ads
          </a>
          <a class="tag-link-26 tag-link-position-22" href="http://blog.cos.name/taoshi/tag/terry-speed/" style="font-size: 8pt;" title="1个话题">
           Terry Speed
          </a>
          <a class="tag-link-46 tag-link-position-23" href="http://blog.cos.name/taoshi/tag/twitter-2/" style="font-size: 8pt;" title="1个话题">
           Twitter
          </a>
          <a class="tag-link-14 tag-link-position-24" href="http://blog.cos.name/taoshi/tag/yang-liu/" style="font-size: 8pt;" title="1个话题">
           Yang Liu
          </a>
          <a class="tag-link-31 tag-link-position-25" href="http://blog.cos.name/taoshi/tag/%e4%ba%ba%e5%8f%a3%e6%99%ae%e6%9f%a5/" style="font-size: 8pt;" title="1个话题">
           人口普查
          </a>
          <a class="tag-link-93 tag-link-position-26" href="http://blog.cos.name/taoshi/tag/%e5%8f%b6%e8%af%97%e6%96%87/" style="font-size: 13.25pt;" title="2个话题">
           叶诗文
          </a>
          <a class="tag-link-114 tag-link-position-27" href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae/" style="font-size: 19.666666666667pt;" title="4个话题">
           大数据
          </a>
          <a class="tag-link-74 tag-link-position-28" href="http://blog.cos.name/taoshi/tag/%e5%a5%a5%e6%9e%97%e5%8c%b9%e5%85%8b/" style="font-size: 16.75pt;" title="3个话题">
           奥林匹克
          </a>
          <a class="tag-link-58 tag-link-position-29" href="http://blog.cos.name/taoshi/tag/%e5%b8%8c%e6%a0%bc%e6%96%af%e7%8e%bb%e8%89%b2%e5%ad%90/" style="font-size: 8pt;" title="1个话题">
           希格斯玻色子
          </a>
          <a class="tag-link-21 tag-link-position-30" href="http://blog.cos.name/taoshi/tag/%e5%b9%bf%e5%91%8a/" style="font-size: 8pt;" title="1个话题">
           广告
          </a>
          <a class="tag-link-22 tag-link-position-31" href="http://blog.cos.name/taoshi/tag/%e6%83%85%e7%bb%aa%e9%a2%84%e6%b5%8b/" style="font-size: 8pt;" title="1个话题">
           情绪预测
          </a>
          <a class="tag-link-180 tag-link-position-32" href="http://blog.cos.name/taoshi/tag/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" style="font-size: 13.25pt;" title="2个话题">
           数据挖掘
          </a>
          <a class="tag-link-47 tag-link-position-33" href="http://blog.cos.name/taoshi/tag/%e6%96%b0%e6%b5%aa%e6%96%b0%e9%97%bb/" style="font-size: 8pt;" title="1个话题">
           新浪新闻
          </a>
          <a class="tag-link-59 tag-link-position-34" href="http://blog.cos.name/taoshi/tag/%e6%ac%a7%e6%b4%b2%e5%a4%a7%e5%9e%8b%e5%bc%ba%e5%ad%90%e5%af%b9%e6%92%9e%e6%9c%ba/" style="font-size: 8pt;" title="1个话题">
           欧洲大型强子对撞机
          </a>
          <a class="tag-link-15 tag-link-position-35" href="http://blog.cos.name/taoshi/tag/%e6%b0%91%e7%a7%91/" style="font-size: 8pt;" title="1个话题">
           民科
          </a>
          <a class="tag-link-27 tag-link-position-36" href="http://blog.cos.name/taoshi/tag/%e7%94%b7%e5%a5%b3%e6%af%94%e4%be%8b/" style="font-size: 8pt;" title="1个话题">
           男女比例
          </a>
          <a class="tag-link-48 tag-link-position-37" href="http://blog.cos.name/taoshi/tag/%e7%95%99%e5%ad%a6%e7%94%b3%e8%af%b7/" style="font-size: 8pt;" title="1个话题">
           留学申请
          </a>
          <a class="tag-link-50 tag-link-position-38" href="http://blog.cos.name/taoshi/tag/%e7%b2%be%e7%ae%97%e5%b8%88/" style="font-size: 8pt;" title="1个话题">
           精算师
          </a>
          <a class="tag-link-183 tag-link-position-39" href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" style="font-size: 19.666666666667pt;" title="4个话题">
           统计
          </a>
          <a class="tag-link-51 tag-link-position-40" href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e5%ad%a6%e5%ae%b6/" style="font-size: 8pt;" title="1个话题">
           统计学家
          </a>
          <a class="tag-link-64 tag-link-position-41" href="http://blog.cos.name/taoshi/tag/%e7%bd%ae%e4%bf%a1%e5%8c%ba%e9%97%b4/" style="font-size: 13.25pt;" title="2个话题">
           置信区间
          </a>
          <a class="tag-link-17 tag-link-position-42" href="http://blog.cos.name/taoshi/tag/%e8%b6%85%e7%ba%a7%e7%a2%97/" style="font-size: 8pt;" title="1个话题">
           超级碗
          </a>
          <a class="tag-link-41 tag-link-position-43" href="http://blog.cos.name/taoshi/tag/%e9%92%9f%e5%b1%b1%e8%af%b4%e4%ba%8b/" style="font-size: 8pt;" title="1个话题">
           钟山说事
          </a>
          <a class="tag-link-16 tag-link-position-44" href="http://blog.cos.name/taoshi/tag/%e9%9d%9e%e8%af%9a%e5%8b%bf%e6%89%b0/" style="font-size: 8pt;" title="1个话题">
           非诚勿扰
          </a>
          <a class="tag-link-42 tag-link-position-45" href="http://blog.cos.name/taoshi/tag/%e9%ab%98%e8%80%83/" style="font-size: 8pt;" title="1个话题">
           高考
          </a>
         </div>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget-suf-subscription" id="suf-subscription-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          Follow Me
         </h3>
         <form action="http://feedburner.google.com/fb/a/mailverify" class="aligncenter" method="post" onsubmit="window.open('http://feedburner.google.com/fb/a/mailverify?uri=your-feed-name', 'popupwindow', 'scrollbars=yes,width=550,height=520');return true" target="popupwindow">
          <p>
          </p>
         </form>
         <div class="fix">
         </div>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_meta" id="meta-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          功能
         </h3>
         <ul>
          <li>
           <a href="http://blog.cos.name/taoshi/wp-login.php">
            登录
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/feed/">
            文章
            <abbr title="Really Simple Syndication">
             RSS
            </abbr>
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/comments/feed/">
            评论
            <abbr title="Really Simple Syndication">
             RSS
            </abbr>
           </a>
          </li>
          <li>
           <a href="https://cn.wordpress.org/" title="基于WordPress，一个优美、先进的个人信息发布平台。">
            WordPress.org
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
      </div>
      <!--/sidebar -->
     </div>
    </div>
    <!-- /container -->
    <footer>
     <div id="cred">
      <table>
       <tbody>
        <tr>
         <td class="cred-left">
          © 2013
          <a href="http://blog.cos.name/taoshi">
           从数据中看规律
          </a>
         </td>
         <td class="cred-center">
         </td>
         <td class="cred-right">
          <a href="http://aquoid.com/news/themes/suffusion/">
           Suffusion theme by Sayontan Sinha
          </a>
         </td>
        </tr>
       </tbody>
      </table>
     </div>
    </footer>
    <!-- 62 queries, 49MB in 0.536 seconds. -->
   </div>
   <!--/wrapper -->
   <!-- location footer -->
  </div>
 </body>
</html>